人类通过开发抽象层次来驯服数学推理的复杂性。通过适当的抽象,可以简洁地表达难题的解决方案,从而使它们更容易被找到。在本文中,我们提出了学习数学抽象 (L EMMA):一种为数学领域的强化学习代理实现这一想法的算法。L EMMA 通过抽象步骤增强了专家迭代,其中迄今为止找到的解决方案被重新审视并根据新的更高级操作重写,然后可用于解决新问题。我们逐步评估了两个数学推理任务(方程求解和分数简化)上的 L EMMA。在这两个领域,L EMMA 提高了现有代理的能力,既解决了更多的问题,又比训练期间遇到的问题更有效地推广到更难的问题。